百度百舸 X SGLang 社区 | 开源MTP代码,助力DeepSeek-V3.2 推理服务2倍以上吞吐提升
这套代码不仅性能卓越,更在百度内部大规模服务中证明了出色的稳定性与可靠性。SGLang 社区实测表明,该代码为最新的 DeepSeek-V3.2 模型带来了超过 2 倍解码吞吐量的显著性能提升,让社区能够直接部署生产级别的优化方案。
这套代码不仅性能卓越,更在百度内部大规模服务中证明了出色的稳定性与可靠性。SGLang 社区实测表明,该代码为最新的 DeepSeek-V3.2 模型带来了超过 2 倍解码吞吐量的显著性能提升,让社区能够直接部署生产级别的优化方案。
向读者们简单介绍下 SGLang。它起源于 RadixAttention,是由非营利组织LMSYS孵化的开源高性能的大语言模型和视觉语言模型推理引擎。它在各种环境中提供低延迟和高吞吐量的推理,从单个 GPU 到大型分布式集群。